Chapter 10. 심층 강화학습(Deep RL)의 고도화
- 10.1 연속 제어(Continuous Control)와 표본 효율성 (Sample Efficiency)
- 10.2 최대 엔트로피 강화학습 (Maximum Entropy RL): Soft Actor-Critic (SAC)
- 10.3 희소 보상(Sparse Reward) 문제의 해결: 목표 기반 RL (Goal-Conditioned RL)
- 10.4 분포 강화학습 (Distributional RL): 기댓값을 넘어서
- 10.5 시각적 강화학습과 데이터 증강 (Data-Regularized Visual RL)
- 10.6 효율적인 탐험 전략 (Advanced Exploration Strategies)